跳到主要内容

单 agent 循环

ReAct 与 ReWOO 两种循环范式各有什么取舍,agent 与 workflow 的控制流边界在哪里

核心要点

  • agent loop = 推理-行动-观察的迭代闭环
  • ReAct:推理锚定行动,观察减幻觉
  • ReWOO:先规划后执行,token 效率约 5×
  • agent 由 LLM 掌控制流
  • 控制流是 agent 与 workflow 的分界

本文讲单 agent 的自主循环。确定性 workflow 模式与"何时不该用循环"见 05-确定性workflow

agent loop 的基本结构是什么?

核心问题:一个 agent "自己干活"时,内部在循环什么?

基本结构是推理→行动→观察的迭代闭环,由 LLM 在运行时决定下一步。模型读取当前状态,推理出该调哪个工具,执行后观察结果,再决定下一步,直到判断任务完成而停止。

关键特征是控制流掌握在模型手里:没有预先写死的步骤序列,每一步做什么由模型当场决定。这赋予 agent 处理开放式任务的能力,代价是路径不可预测、调试更难——这正是它与 workflow 的根本区别(见 05-确定性workflow)。

图 4.1: agent loop 的迭代闭环:推理决定行动,行动产生观察,观察反馈校正下一轮推理,LLM 在运行时判断何时结束

ReAct 怎么减少幻觉?

核心问题:让模型边想边做,比只想或只做强在哪?

ReAct 交替生成推理(thought)和行动(action),用观察结果锚定推理、抑制幻觉[1]。Yao et al. 发现,纯推理容易脱离事实编造,纯行动缺乏规划;两者交替让推理被真实观察约束。

机制是 thought-action-observation 三元交替:模型先想"我需要查 X",执行查询动作,观察到真实结果,再基于结果想下一步。在 HotpotQA、FEVER、ALFWorld 等任务上,ReAct 优于推理-only 和行动-only 基线(ALFWorld 成功率绝对提升约 34%)。这条思路是现代 agent loop 的基础范式——让外部观察持续校正模型的内部推理

ReWOO 比 ReAct 省在哪?

核心问题:ReAct 每步都要模型往返一次,能不能少调几次?

ReWOO 把规划与执行彻底解耦:一次规划出完整工具序列,再并行执行,token 效率约提升 5×[2]。它针对 ReAct 的痛点——每个 observation 都要重新喂回模型,推理上下文反复膨胀。

ReWOO 分三角色:planner 一次性生成完整的工具调用计划,worker 并行执行这些调用,solver 综合结果。在 HotpotQA 上 token 效率提升 5 倍、准确率提升 4%,还能把推理能力从 175B 模型迁移到 7B 小模型。可借鉴的权衡:计划质量足够时,先规划后执行比走一步看一步更省;但任务高度依赖中间观察时,ReAct 的逐步反馈更稳。

agent 和 workflow 怎么区分?

核心问题:都是"多步骤完成任务",agent 和 workflow 的界线在哪?

界线在控制流归谁:agent 让 LLM 掌控下一步,workflow 由代码预先编排[3]。这是 Anthropic 给出的核心区分。

  • workflow:步骤和路径由代码写死,路径可预测、失败可定位。
  • agent: LLM 在运行时决定控制流,适合开放式任务但成本高、调试难。

Anthropic 的建议很明确:优先选最简方案,能用 workflow 解决就不引入自主 agent。单 agent 循环是强大但昂贵的工具,只在任务真正开放、步骤无法预先确定时才动用。workflow 的五种模式见 05-确定性workflow

Takeaway

知识点核心结论
agent loop推理-行动-观察迭代,LLM 运行时决定下一步
ReActthought-action-observation 交替,观察锚定推理减幻觉
ReWOOplanner-worker-solver,先规划后执行,token 效率约 5×
控制流归属agent 由 LLM 掌控,workflow 由代码编排
选型优先 workflow,任务真正开放才用自主 agent

参考资料

  1. Yao et al. ReAct: Synergizing Reasoning and Acting in Language Models. arXiv:2210.03629, 2022. https://arxiv.org/abs/2210.03629
  2. Xu et al. ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models. arXiv:2305.18323, 2023. https://arxiv.org/abs/2305.18323
  3. Anthropic. Building effective agents. 2024. https://www.anthropic.com/engineering/building-effective-agents

延伸阅读